BLUE定理

加权最小二乘法 协方差矩阵 多元高斯分布

定义

BLUE 是 Best Linear Unbiased Estimator 的缩写,即“最佳线性无偏估计”。在线性测量模型

b=Ax+ε

中,若

E[ε]=0,Cov(ε)=V,

并且 V 正定、A 满列秩,则加权最小二乘估计

x^=(ATV1A)1ATV1b

是在所有线性无偏估计中方差最小的估计。

线性、无偏、最小方差

“线性”表示估计量可写成

x^=Lb

其中 L 不随观测值 b 改变。“无偏”要求对所有真实 x 都有

E[Lb]=x.

因为 E[b]=Ax,无偏条件等价于

LA=I.

“最小方差”不是只比较某一个坐标,而是比较任意线性组合的方差。若 L 是加权最小二乘对应矩阵,则对任意满足 LA=I 的估计,都有

LV(L)TLVLT0.

BLUE 估计矩阵

加权最小二乘最小化

(bAx)TV1(bAx).

一阶条件给出正规方程

ATV1Ax^=ATV1b.

因此

L=(ATV1A)1ATV1,x^=Lb.

直接检查可得

LA=(ATV1A)1ATV1A=I,

所以该估计是无偏线性估计。

方差推导

加权估计的协方差为

W=LVLT.

代入 L

LVLT=(ATV1A)1ATV1VV1A(ATV1A)1=(ATV1A)1.

因此

W=(ATV1A)1.

若另一个无偏线性估计写为 L=L+D,则由 LA=ILA=I 得到

DA=0.

同时 LT=V1A(ATV1A)1,所以

DVLT=DA(ATV1A)1=0.

于是

LV(L)T=LVLT+DVDT.

因为 DVDT 半正定,加权最小二乘的估计协方差不大于任何其他无偏线性估计的协方差。

心率三次测量例子

同一个心率 x 有三次独立测量 b1,b2,b3

A=(111).

若三次测量的方差是

19,14,1,

V1=diag(9,4,1).

BLUE 估计为

x^=9b1+4b2+b39+4+1=9b1+4b2+b314.

其方差为

W=(ATV1A)1=114.

这比只使用任何一次测量都更可靠;权重来自测量方差的倒数,而不是来自观测值大小本身。

与高斯假设的关系

BLUE 定理本身不需要误差服从高斯分布,只需要零均值、协方差 V、线性模型以及无偏估计条件。若进一步假设误差是多元高斯,那么加权最小二乘同时也是最大似然估计,因为高斯负对数似然正比于

(bAx)TV1(bAx).

因此高斯假设解释了为什么选择这个二次目标;BLUE 定理则说明即使没有完整高斯分布,在无偏线性估计类中这个估计仍有最小方差。

边界条件

BLUE 的比较范围只包含线性无偏估计。带偏估计可能用偏差换取更小均方误差,非线性估计也不在定理比较范围内。若 A 不满列秩,则 ATV1A 不可逆,未知量不能被唯一无偏估计;若 V 奇异,需要先明确噪声退化约束或改用广义逆形式。若使用了错误的协方差矩阵,估计仍可能无偏,但通常不再达到真实方差意义下的最优。

加权最小二乘和 BLUE 都属于 L2 平方误差框架。平方误差适合方差最小化和高斯噪声,但对离群点敏感,并且不会主动产生稀疏解。若任务更重视稳健性或稀疏性,常改用 L1 目标:

minxi|(bAx)i|.

L1 问题的目标非光滑,通常不能通过线性正规方程直接求解。